NVIDIA B200
NVIDIA Blackwell 架构旗舰数据中心 GPU(2024-03 GTC 发布,2024 Q4 量产),FP16 算力约 2.25 PFLOPS(2x H100),是 2025 起全球 AI 训练/推理新一代主力,GB200 NVL72 机柜级系统核心组件。
技术参数
| 维度 | 数值 |
|---|---|
| 架构 | Blackwell |
| 发布 | 2024-03(GTC)/ 2024 Q4 量产 / 2025 规模出货 |
| 制程 | TSMC 4NP(定制 4nm Performance) |
| 晶体管数 | 2,080 亿(双 die 通过 NV-HBI 互联,业界首款双 die GPU) |
| 封装 | CoWoS-L(大尺寸 interposer) |
| FP16 / BF16 算力 | ~2.25 PFLOPS(稀疏 ~4.5 PFLOPS) |
| FP8 算力 | ~4.5 PFLOPS(稀疏 ~9 PFLOPS) |
| FP4 算力(新增) | ~9 PFLOPS(稀疏 ~18 PFLOPS) |
| 显存 | 192 GB HBM3e(2.4x H100) |
| 显存带宽 | 8 TB/s(2.4x H100) |
| TDP | 1,000W(SXM6,强制液冷) |
| 互联 | NVLink 5(1.8 TB/s 双向,2x H100) + PCIe Gen6 |
| 整机形态 | HGX B200 8 卡 / GB200 NVL72 72 卡机柜 |
关键技术创新
- 双 die 设计 — 业界首款双 die 数据中心 GPU,通过 NV-HBI 互联(10 TB/s)让两个 die 对软件呈现为单一 GPU
- FP4 数据类型 — 新增 FP4 数据类型,是大模型推理效率的关键升级
- 第二代 Transformer Engine — 针对 LLM 训练优化
- NVLink 5 — 互联带宽翻倍,使更大规模集群训练成为可能
- HBM3e — 显存容量和带宽双双跃升
在 AI 算力链中的角色
B200 是 2025 起全球算力租赁定价新基准:
- CoreWeave / Nebius / Lambda Labs 等国际 Neocloud 2025 Q1 起规模部署
- Microsoft Azure / AWS / Google Cloud Platform 同步上线 B200 / GB200 实例
- 2025 B200 实例租赁价约 $4-6/GPU 小时(全球),约为同期 NVIDIA H100 的 1.5-2x,但单位 FP16 算力成本下降 25-40%,加速 H100 价格下行
中国市场情况
B200 本身受美国出口管制禁运,与 NVIDIA H100 类似无法直接销售中国。NVIDIA 衍生中国特供版:
- B30 / B40 — 推测降规版本(NVIDIA 未正式命名,2025 中传闻)
- 中国算力租赁商(利通电子 / 协创数据 / 中贝通信)目前主要依赖 H800/H20 库存 + 国产 华为昇腾910B / 寒武纪 思元的混合部署,短期内难以大规模获取 B200
中国市场的 B200 部署主要是早期合法采购库存 + 灰色渠道少量进口,整体规模相对全球微小。
与同代竞品对比
| 产品 | 厂商 | FP16 | HBM | TDP | 备注 |
|---|---|---|---|---|---|
| B200 | NVIDIA | ~2.25 PFLOPS | 192GB HBM3e | 1,000W | 标杆 |
| MI325X | AMD | ~2.6 PFLOPS | 256GB HBM3e | 1,000W | 显存大 |
| MI355X | AMD | ~2.3 PFLOPS(推测) | 288GB HBM3e | 1,000W+ | 2025 H2 出货 |
| TPU v6 Trillium | ~926 BF16 TFLOPS | 32GB | — | 内部使用 | |
| Maia 100 | Microsoft | — | — | — | Azure 内部使用 |
| Gaudi 3 | Intel | ~1.8 PFLOPS | 128GB HBM2e | 900W | 市场反响弱 |
GB200 NVL72 机柜系统
B200 的旗舰部署形态是 GB200 NVL72——36 颗 Grace CPU + 72 颗 B200 GPU 通过 NVLink 5 fabric 全互联的机柜级系统,单柜价值 $300-320 万,FP4 算力 1.44 exaFLOPs。这是 NVIDIA "从卖芯片到卖一柜算力"商业模式转型的标志性产品。
价格与商业意义
| 时间 | B200 全球租赁价($/GPU 小时) |
|---|---|
| 2025 Q1 | $5-7(首批) |
| 2025 Q3 | $4-5 |
| 2026 初 | $3-4(推测) |
对中国算力租赁商的影响(据 3-02):
- 加速 H100/H800 资产折旧 — B200 上市直接挤压 H100/H800 租赁定价
- 加大中外算力差距 — 中国无法大规模获取 B200,训练效率与硅谷 AI 实验室差距扩大
- 倒逼国产替代 — 华为昇腾910B / CloudMatrix384 等国产方案在性能差距下需要靠规模和生态弥补
- 拉高未来算力租赁市场天花板 — B200 单位算力成本下降意味着推理算力可负担性提升,推动 AI 应用爆发
关联
↑ up::2-01-核心逻辑芯片 CoWoS HBM NVLink ↓ down::3-01-云计算与智算平台 3-02-AI算力租赁-智算服务 4-02-模型工厂 4-04-模型部署与优化 ⚔ competitor::AMD MI325X/MI355X Google TPU v6 Intel Gaudi 3 华为昇腾910B AMD MI350 AWS Trainium 2 Google TPU v6 Trillium Google TPU v7 Ironwood 昇腾910D ∈ belongs_to::2-01-核心逻辑芯片
关联深度报告
→ 3-02-AI算力租赁-智算服务 2-01-核心逻辑芯片 2-02-AI服务器整机